机器学习平台 TI-ONE

【算法比赛】NFL Big Data Bowl 数据挖掘比赛回顾

本文原作者：孙雨豪，经授权后发布。导语 NFL Big Data Bowl是Kaggle上的一个数据比赛，本文旨在通过回顾比赛，梳理和学习其中的建模思路（点数据挖掘、图挖掘）、数据处理技巧（对抗验证、数据增强）、模型集成技巧（Snapshot Ensembles）。一.背景笔者之前与队友der

腾讯云TI平台

2020-04-03

0

46

【技术分享】修改word2vec源码实现词向量增量更新

本文原作者：岳夕涵，经授权后发布。背景用户搜索的关键词是对其兴趣的一个很重要的反映。然而我们发现，当用户搜索“阿丽塔”、“猫爪杯”等新词后，之后的推荐中却始终没有相关的文章出现。这些新词在新入库文章中出现之后很快就会加入到tag表中。然而我们并没有直接将tag作为特征（之前实验过将tag作为特

腾讯云TI平台

2020-04-01

0

92

【技术分享】奇异值分解

本文原作者：尹迪，经授权后发布。 1 奇异值分解在了解特征值分解之后，我们知道，矩阵A不一定是方阵。为了得到方阵，可以将矩阵A的转置乘以该矩阵。从而可以得到公式：现在假设存在M*N矩阵A，我们的目标是在n维空间中找一组正交基，使得经过A变换后还是正交的。假设已经找到这样一组正交基： A矩阵可以将

腾讯云TI平台

2020-03-25

0

59

【技术分享】主成分分析

本文原作者：尹迪，经授权后发布。 1 主成分分析原理主成分分析是最常用的一种降维方法。我们首先考虑一个问题：对于正交矩阵空间中的样本点，如何用一个超平面对所有样本进行恰当的表达。容易想到，如果这样的超平面存在，那么他大概应该具有下面的性质。最近重构性：样本点到超平面的距离都足够近最大可分性：样

腾讯云TI平台

2020-03-20

0

18

【技术分享】深入了解tensorflow模型存储格式

本文原作者：岳夕涵，经授权后发布。导语做模型的同学基本都会使用tensorflow，不知道大家是否会像我一样对tensorflow的模型存储感到疑惑：各种模型保存的方法、保存出的模型文件名称和结构还不一样、加载模型的时候有的需要重新定义一遍计算图而有的不需要、有的格式tfserving能用有的不

腾讯云TI平台

2020-03-18

0

90

【技术分享】特征值分解

本文原作者：尹迪，经授权后发布。假设向量`v`是方阵`A`的特征向量，可以表示成下面的形式：这里lambda表示特征向量v所对应的特征值。并且一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解为下面的形式：其中Q是这个矩阵A的特征向量组成的矩阵。sigma是一个对

腾讯云TI平台

2020-03-13

0

54

【技术分享】梯度下降算法

本文原作者：尹迪，经授权后发布。梯度下降（GD）是最小化风险函数、损失函数的一种常用方法，随机梯度下降和批量梯度下降是两种迭代求解思路。 1 批量梯度下降算法假设h(theta)是要拟合的函数，J(theta)是损失函数，这里theta是要迭代求解的值。这两个函数的公式如下,其中m是训练集的记录

腾讯云TI平台

2020-01-17

0

17

【技术分享】L-BFGS算法

本文原作者：尹迪，经授权后发布。 1牛顿法设f(x)是二次可微实函数，又设$x^{(k)}$是f(x)一个极小点的估计，我们把f(x)在$x^{(k)}$处展开成Taylor级数，并取二阶近似。上式中最后一项的中间部分表示f(x)在$x^{(k)}$处的Hesse矩阵。对上式求导并令其等于0，

腾讯云TI平台

2020-01-15

0

78

【技术分享】隐式狄利克雷分布

本文原作者：尹迪，经授权后发布。前言 LDA是一种概率主题模型：隐式狄利克雷分布（Latent Dirichlet Allocation，简称LDA）。LDA是2003年提出的一种主题模型，它可以将文档集中每篇文档的主题以概率分布的形式给出。通过分析一些文档，我们可以抽取出它们的主题（分布），根

腾讯云TI平台

2020-01-03

0

57

【技术分享】线性支持向量机

原作者：尹迪，经授权后发布。 1.介绍线性支持向量机是一个用于大规模分类任务的标准方法。。它的损失函数是合页（hinge）损失，如下所示默认情况下，线性支持向量机训练时使用L2正则化。线性支持向量机输出一个SVM模型。给定一个新的数据点x，模型通过w^Tx的值预测，当这个值大于0时，输出为正，否

腾讯云TI平台

2019-12-27

0

12

【技术分享】梯度提升树分类

原作者：尹迪，经授权后发布。 1.Boosting Boosting是一类将弱学习器提升为强学习器的算法。这类算法的工作机制类似：先从初始训练集中训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注。然后基于调整后的样本分布来训练下一个基

腾讯云TI平台

2019-12-25

0

50

【技术分享】逻辑回归分类

原作者：尹迪，经授权后发布。 1.二元逻辑回归回归是一种很容易理解的模型，就相当于y=f(x)，表明自变量x与因变量y的关系。最常见问题如医生治病时的望、闻、问、切，之后判定病人是否生病或生了什么病，其中的望、闻、问、切就是获取的自变量x，即特征数据，判断是否生病就相当于获取因变量y，即预测分类

腾讯云TI平台

2019-12-18

0

82

【技术分享】随机森林分类

本文原作者：尹迪，经授权后发布。 1.Bagging Bagging采用自助采样法(bootstrap sampling)采样数据。给定包含m个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时，样本仍可能被选中，这样，经过m次随机采样操作，我们得到包含m个样

腾讯云TI平台

2019-12-11

0

48

【技术分享】决策树分类

本文原作者：尹迪，经授权后发布。 1 决策树理论 1.1 什么是决策树所谓决策树，顾名思义，是一种树，一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，从根节点到叶节

腾讯云TI平台

2019-12-06

0

18

【产品新闻】TI-ONE助力高校人工智能师资培养

为推动中国人工智能行业的发展，促进专业人才培养，以及推进人工智能领域一级学科建设，信息技术新工科产学研联盟联合腾讯公司于10月29日，在南京大学开展了高等院校人工智能人才培养暨智能应用建模课程研讨会。于10月25日-27日，11月16日-17日，11月22日-24日，分别在天津大学、西安交通大学、厦

腾讯云TI平台

2019-11-29

0

23